Tenemos una reunión el día 23/10/2024 con el hombre para que nos cuente. La idea que tengo es que tiene unas muestras de metagenómica y de metabolomica y queremos analizarlas.
Tenemos el analisis de metabolomica hecho en principio en la tesis de Vizcaino. Según entendí en la reunión fue que teniamos muestras de pacientes con varias enfermedades hepáticas. Se hizo un estudio metabolómico y encontraron que habia metabolitos no humanos en los analisis metabolomicos. Queremos ver si esos metabolitos se corresponden con alguna bacteria en concreto.
Starting point
What samples do we have?
Examine the data
Preprocess and data cleaning
Clean the data
Remove or impute NA values
Look if there was batch effect
Microbiota analysis
Taxa abundance of all taxa
Alpha diversity
beta diversity
Select most important species with RF
Pathway analysis with HUMAn2 , PICRUSt2, Tax4Fun
comparative
GSEA
Metabolomic analysis
Correlations
Taxa vs clinical data
Pathways vs clinical data
Metabolites vs clinical data
metabolites vs Taxa
Predictive model
Choose the output variable
Choose most important metagenomic and metabolomic
Lo hice en varias tandas porque me daba error al abrir los analisis en IonReporter. Los he cargado en R sin problemas
Quito las variables:
covs <- covs %>% dplyr::select(-“AMSbiopharma request”, -“ID ESTUDO”, - “Nº HISTOLÓGICO”, - “DATA”, -“DATA NASCIMENTO”)
Parece que hay discrepancia en las muestras de las lecturas y de las covariables. Cambié “-” por ”_” porque no tenian la misma nomenclatura. Aun así vemos las siguientes muestras que no se corresponden.
He cambiado estas muestras pero me faltan por localizar
Cuando visualizo las variables vemos que casi todas son numéricas pero hay bastantes que son NAs y pertenecen casi todas al grupo CBP.
Empezamos a ver las variables character a ver qué son:
Pathology group y Diagnóstico Principal son la misma columna así que borro la segunda
Paso Pathology group a factor. Tambien Género. y la de DADOR….
Veo que todas las muestras Healthy son los organos donantes y los demás son los organos dañados. Quito esa variable porque no me aporta nada
Observações la quito porque está vacia de parámetros y parecen cosas que no aportan nada.
Leucocitos totales y linfocitos son numericas. Cuando hago las gráficas de esas dos variables veo que los sanos tienen 999 todos lo que significa que no se recogieron esas muestras en los sanos. Desecho esas variables.
Veo que algunos de los factores tienen NAs. Son las muestras: H13_21217, H13_11681 y H16_05568 en Género.
Nos interesa?
Si nos fijamos en detalle, la muestra última H16_05568 no se recogió ninguna variable clinica pero sí de metabolitos y metagenómica.
Voy a cambiar todos los 999 por NAs
Paso a mirar las numéricas. Empiezo mirando las que tienen NAs.
Todas las CBP no tienen los datos de Area del porta utilizada. Es una variable técnica que creo que no aporta nada, así que la quito (A1 Final mm2, A2 Inicial mm2, Média A1+A2)
SIDEROSIS (Presencia de gránulos de pigmento hemosidérico en el citoplasma de hepatocitos o en células de Kupffer) y SIDEROSIS TOPOGRAFIA (Localización/topografía de la siderosis en el tejido hepático) tienen muchos NAs. Lo quito.
Sirolimus, Sirolimus Conc min (), Everolimus, Everolimus Conc. Mínima no tienen valores en ninguna de las muestras. Las quito las 4
Lo mismo con Tacrolimus Conc. Sangre, Ciclosporina Conc. Sangre. Las quito
Las variables serológicas y microbiológicas tienen muchos NAs. -anti-VHC, -RNA-VHC, -anti-VHBs, -anti-VHBc, -VHBsAg, -VHBeAg, -anti-VHBe, -DNA VHB, -anti-VHA)
Quito tambien las variables bioquímicas y clinicas (ttos y enfermedades) INR:Motivo do transplante
Ahora voy a pasar todas las numericas que son factores. Para ello miro en la tesis.
Vale, ahora vamos a ver los datos. Empezamos viendo cuantas muestras hay de cada tipo de patología. Parece que está muy repartido pero parecen
Vamos con las variables categóricas. Parece que es más o menos normal aunque hay algunas bastante desbalanceadas
Vamos con las numericas: